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摘要 : 


【 目的】 通过 对 语义 社会 网 络 的 建 模 , 讨论 如 何 识别 对 奥 论 传播 演化 起 核心 作用 的 关键 节点 。[ 方法 ] 引 


入 超 网 络 理论 对 微 博 语 义 社会 网 络 进行 理论 建 模 , 使 用 情感 本 体 以 及 LDA 话题 模型 对 数据 实现 节点 量化 ,提出 
超 边 排序 算法 对 用 户 节 点 进行 计算 和 排序 从 而 获取 关键 节点 。[ 结果 ] 利 用 真实 微 博 网 络 数据 编程 实现 超 网 络 模 
型 的 构建 和 量化 , 通过 结果 分 析 证 明 本 文 的 关键 节点 识别 方法 在 实际 应 用 场景 中 的 有 效 性 和 准确 性 。[ 局 限 ] 关 


内 容 和 消极 舆论 对 互联 网 健康 发 展 的 影响 。 
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键 节点 识别 方法 的 实时 应 用 效果 和 对 识别 关键 节点 后 如 何 有 效 引 导 和 干预 机 制 未 能 全 面 涉及 。[ 结论 ] 本 文 的 关 
键 节 点 识别 方法 能 够 挖掘 出 微 博 网 络 的 关键 节点 ,为 政府 对 网 络 与 情 监 管 和 引导 提供 一 种 解决 方案 , 减少 负面 
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随 着 信息 技术 的 发 展 , 社交 网 络 如 微 博 、 微 信 等 
已 成 为 人 们 日 常生 活 中 传播 信息 的 主要 手段 。 语 义 社 
会 网 络 是 一 种 由 语义 信息 节点 以 及 社会 关系 构成 的 新 
型 复杂 网 络 品 ,已 成 为 互联 网 时 代 网 络 与 论 传播 的 主 
要 载体 。 互 联网 所 具备 的 开放 性 、 便 捷 性 特点 使 得 网 
络 奥 论 表达 更 加 自由 、 多 元 和 难以 控制 , 负面 内 容 和 
消极 舆论 严重 阻碍 了 互联 网 的 健康 发 展 。 由 于 语义 社 
会 网 络 这 样 的 网 络 结构 中 多 拥有 一 个 或 者 多 个 处 于 核 
心地 位 的 节点 ,对 网 络 结构 和 功能 具备 更 大 的 影响 力 ， 
即 关 键 节点 中 ,根据 信息 传播 的 二 八 定律 , 一 般 数 量 非 
常 少 的 关键 节点 却 可 以 影响 到 网 络 中 大 部 分 节点 。 例 
如 微 博 中 最 具 影 响 力 的 大 V 所 发 布 的 微 博 能 够 迅速 地 
传 遍 整个 网 络 上 .因此 在 对 网 络 与 论 传 播 研究 中 , 特别 
是 对 突 发 与 情事 件 的 研究 “多 侧重 于 通过 关键 节点 


了 中 


于 ' 模 型 -数据 双 驱 动 ' 的 复杂 社会 网 络 行为 大 数据 分 析 方 法 研究 "( 项 
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控制 和 引导 谣言 和 负面 与 论 的 传播 , 因此 本 研究 具有 
重大 现实 意义 。 

关键 节点 的 识别 研究 起 源 于 社会 网 络 分 析 。 国 内 
外 关于 网 络 与 论 中 关键 节点 的 识别 研究 主要 从 网 络 拓 
扑 结构 和 传播 动力 学 方面 切 人 。 基 于 网 络 结构 的 节点 重 
要 性 排序 方法 主要 从 网 络 的 局 部 属性 路、 全 局 属性 1、 
路 径 中 MI、 位置 中 以 及 节点 移 除 和 收缩 中 等 方面 进行 衡 
量 。 Klemm 等 中 提出 集群 动力 学 中 节点 的 重要 性 由 网 
络 结构 和 集群 动力 学 机 制 共同 决定 的 观点 ; Aral 等 [1 
对 Facebook 中 130 万 用 户 传播 行为 研究 发 现 用 户 影 响 
力 受 到 年 龄 、 性 别 、 婚 姻 等 因素 的 影响 。 综 上 , 本 文 
认为 节点 重要 性 不 仅 受到 网 络 拓扑 结构 特性 的 影响 ， 
同时 也 受到 网 络 传播 机 制 以 及 节点 自身 特性 的 影响 。 

传统 网 络 模 型 "1 多 由 单一 属性 节点 组 成 (多 为 用 
户 节 点 )， 对 于 该 节点 包含 的 语义 、 情 感 等 其 他 属性 等 
涉 猜 较 少 05。 特 别 是 语义 社会 网 络 包含 多 种 不 同 要 素 
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的 复杂 关联 关系 , 单一 节点 的 网 络 模 型 无 法 准确 描述 
真实 社会 网 络 。 而 美国 科学 家 Nagurney 等 ("| 率先 定 
义 的 超 网 络 为 :“ 高 于 而 又 超 于 现存 网 络 的 网 络 ” 适 
用 于 刻画 具备 多 层 结构 、 多 级 特征 、 多 属性 的 真实 社 
会 网 络 以 及 网 络 之 间 的 相互 作用 和 影响 (1。 

目前 基于 超 网 络 理论 的 关键 节点 识别 研究 应 用 领 
域 较 广 , Lin 等 5 将 其 运用 在 电磁 兼容 性 问题 上 , 评估 
电子 系统 中 的 关键 节点 ; DengP9 应 用 于 人 和 群 重要 度 建 
模 , 评估 不 同人 群 在 领域 中 的 重要 作用 ; 武 澎 等 中 利 
用 特征 向 量 中 心性 对 社交 超 网 络 节 点 信息 交互 综合 能 
力 进 行 评判 ; 马 宁 等 5I 率 先 提出 在 论坛 应 用 场景 下 的 
社交 、 环 境 、 心 理 和 观点 4 层 超 网 络 模型 。 本 文 针对 
微 博 应 用 场景 下 用 户 行为 容易 受到 话题 和 情感 属性 影 
响 的 特性 对 模型 子 网 的 内 容 和 构建 方式 进行 改进 ; 同 
时 采用 人 工 总 结论 坛 语料库 语义 信息 的 方式 构建 网 络 


广 上 insviwv 公 人 全 甘 日 于 | 
LnIinaxIV 瑟 人 1F 期 二 


总 第 268 期 2016 年 第 3 期 


和 实验 验证 , 还 处 于 起 步 阶段 ， 同时 人 工 判断 的 方法 
耗 时 长 ， 因 此 本 文 创新 性 引入 情感 本 体 和 LDA 主题 模 
型 对 改进 的 话题 和 情感 子 网 进行 自动 化 识别 和 计算 ， 
并 提出 相应 的 排序 算法 以 适应 大 数据 场景 。 


2 微 博 语义 社会 网 络 超 网 络 建 模 


超 网 络 环境 下 语义 社会 网 络 关键 节点 的 自动 化 识 
别 研究 思想 如 图 1 所 示 , 首先 在 总 结 微 博 传播 和 用 户 
特性 基础 上 ,从 社交 、 内 容 、 话 题 和 观点 4 个 维度 构 
建 超 网 络 模型 ,刻画 语义 社会 网 络 熏 论 的 形成 和 演化 
过 程 ; 借鉴 情感 分 析 扎 和 话题 分 析 它 方法 ， 提 出 基于 
情感 本 体 以 及 LDA 话题 模型 的 超 网 络 节点 自动 化 量 
化 方法 , 同时 提出 HyperEdgeRank 算法 对 超 边 进行 排 
序 , 识别 关键 用 户 节点 , 最 后 通过 实际 数据 分 析 可 行 
性 。 本 文 以 微 博 社交 网 络 为 应 用 场景 进行 曾 述 。 


微 博 社 交 网 络 的 超 网 络 模型 超 边 属性 计算 微 博 社 交 网 络 关键 节点 
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图 1 


2.1 超 网 络 构 建 

在 微 博时 代 , 每 个 人 都 是 事件 的 传播 者 , 微 博 以 
用 户 为 中 心 , 内 容 作为 主体 ,网 络 工具 为 载体 ， 向 社 
会 传播 观点 和 信息 中 。 因 此 在 构建 模型 时 ,不仅 要 包 
括 外 在 特征 -社交 主体 用 户 , 也 应 该 赛 括 用户 发 布 的 
内 容 以 及 其 中 所 包含 的 话题 和 观点 信息 。 本 文 的 语义 
社会 网 络 与 传统 研究 的 社交 网 络 5] 的 不 同 在 于 实时 语 
义 信息 的 引入 , 话题 子 网 正 是 其 语义 信息 的 核心 所 在 ， 
而 话题 信息 则 是 微 博 语义 特征 和 内 容 信息 的 高 度 抽 
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象 ; 观点 信息 作为 用 户 行为 背后 心理 动机 的 抽象 表达 ， 
对 熏 论 的 导向 起 到 了 主导 作用 ,观点 一 般 以 情感 表 
达 。 因 此 本 文 从 网 络 属性 和 传播 特征 出 发 , 改进 前 期 
研究 的 超 网 络 模 型 中 ， 从 社交 、 内 容 、 话 题 和 观点 4 
个 层面 构建 超 网 络 模型 ,提出 了 各 子 网 内 节点 之 间 的 
关联 关系 ， 见 图 1。 

在 微 博 社 交 网 络 中 ,社交 主体 (用 户 ) 利 用 内 容 
(发 布 的 微 博 ) 就 某 一 话题 表达 观点 , 各 子 网 的 层 内 关 
系 如 下 : 
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(1) 社交 子 网 (Social Network): 以 社交 网 络 中 人 参 
与 讨论 的 社交 主体 即 用 户 为 节点 , 用户 之 间 的 关注 关 
系 为 边 。 

(2) 内 容 子 网 (Content Network): 以 社交 网 络 中 用 
户 发 布 的 信息 内 容 为 节点 , 微 博之 间 存 在 的 转发 关系 
构建 连 边 。 

(3) 话题 子 网 (Topic Network): 以 从 社交 网 络 发 
布 内 容 抽取 的 话题 为 节点 , 包含 相同 关键 词 的 微 博 话 
题 的 相似 性 关系 构建 连 边 。 

(4) 观点 子 网 (Emotion Network): 以 从 微 博 中 提 
取 的 情感 极 性 和 情感 强度 作为 节点 , 具备 相同 的 情感 
极 性 表明 存在 相关 性 , 构建 连 边 。 

超 网 络 模 型 的 层 内 关系 是 各 子 网 络 内 要 素 之 间 的 
关系 , 层 间 关系 为 各 子 网 之 间 的 关系 。 社 交 子 网 与 内 
容 子 网 的 映射 关系 为 用 户 节 点 对 应 多 个 微 博 内 容 节 
点 , 来 表征 微 博 用 户 可 以 发 布 多 条 微 博 内 容 。 内 容 子 
网 与 话题 子 网 之 间 的 映射 关系 为 每 条 微 博 内 容 对 应 相 
关 的 话题 。 观 点 子 网 与 话题 子 网 的 映射 关系 为 用 户 在 
话题 下 的 观点 (本 文 设 定 为 正面 、 负 面 和 中 立 )。 最 后 
观点 子 网 与 社交 子 网 之 间 的 映射 关系 为 用 户 发 布 微 博 
参与 某 话题 的 观点 倾向 ,是 隐 性 的 映射 关系 。 

超 网 络 模型 构建 完成 , 可 用 G =(V,HE) 表示 , 其 
中 V 表示 节点 的 集合 ， 即 V= {Vs,Ve,Vo,Vil 
Vi 作 Vj 多} 。HE 表示 超 边 , 超 边 是 4 层 不 同 子 网 节 
点 之 间 的 纵向 连 边 , 表示 用 户 si 通过 内 容 c 就 话题 tk 
发 表 观 点 ej, 用 来 表征 不 同类 别 节点 之 间 的 联系 ， 即 
层 间 关系 ,如 图 1 中 HE1。 

2.2 子 网 节点 语义 自动 化 量化 方法 设计 
超 网 络 模 型 前 期 研究 ”1 侧重 于 超 网 络 模 型 的 
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LDA(Latent Dirichlet Allocatiom) 话 题 模型 所 对 内 容 子 
网 节点 进行 话题 建 模 , 科学 测量 用 户 表达 的 语义 内 涵 ， 
设置 的 话题 数量 即 为 话题 子 网 的 节点 数量 , 同时 根据 
LDA 的 前 提 假 设 , 话题 之 间 相 互 独立 广 ]。 

LDA 概率 话题 模型 是 最 常用 的 话题 挖掘 模型 广 ]。 
它 的 基本 思想 是 假设 每 个 文档 为 话题 集 的 多 项 分 布 ， 
每 个 话题 为 所 有 词汇 的 多 项 分 布 , 将 关键 词 -话题 - 文 
本 的 参数 先 验 关系 表达 为 三 层 贝 叶 斯 模型 。 因此 LDA 
话题 抽取 算法 可 根据 关键 词 与 话题 的 联合 概率 分 布 公 
式 对 已 知 微 博 文本 和 所 有 词汇 进行 重复 抽样 获取 关键 
字 与 文本 之 间 的 共 现 概率 , 推导 获取 文本 与 话题 之 间 
的 联合 概率 分 布 , 从 而 实现 话题 节点 的 自动 化 抽取 。 
本 文通 过 LDA 话题 抽取 算法 外 抽取 K 个 话题 , 将 微 
博文 本 在 话题 集 上 的 联合 概率 分 布 转化 为 微 博 内 容 与 
话题 之 间 的 对 应 关系 , 实现 内 容 子 网 与 话题 子 网 之 间 
的 关联 。 

(3) 借鉴 情感 分 析 的 方法 ,引入 中 文 情感 词汇 本 
体 库 外 抽取 微 博 观点 取向 , 避免 评判 者 的 主观 判断 ， 
真实 表征 用 户 观 点 倾向 。 本 文 将 微 博 经 过 中 文 分 词 之 
后 , 利用 情感 词汇 本 体 中 进行 极 性 标注 ， 累计 情感 词 
汇 的 情感 强度 和 情感 极 性 ,实现 观点 节点 的 抽取 。 
3 ”关键 节点 识别 算法 设计 
3.1 超 边 排序 算法 (HyperEdgeRanlk) 

本 文采 用 超 网 络 模 型 描述 用 户 传播 行为 受到 信 
息 、 话 题 以 及 情感 等 因素 的 影响 , 因此 与 传统 节点 排 
序 方法 中 对 单一 用 户 节 点 排序 不 同 ,对 超 边 进行 排序 ， 
将 单一 用 户 节点 影响 力 计算 转化 为 用 户 包含 的 所 有 超 
边 影 响 力 ， 从 而 实现 多 维 信息 的 综合 考虑 。 同 时 本 文 


理论 构建 , 其 中 心理 、 观 点 这 样 的 抽象 属性 难以 利用 
定量 的 方式 进行 衡量 , 多 采用 人 工 总 结语 料 的 识别 方 
式 。 由 于 本 文 改 进 了 微 博 语义 社会 网 络 的 超 网 络 模型 ， 
对 包含 语义 和 情感 抽象 信息 的 话题 子 网 和 观点 子 网 ， 
创新 性 地 提出 一 种 利用 情感 本 体 与 LDA 主题 模型 的 
自动 化 量化 方法 。 

(1) 社交 子 网 和 内 容 子 网 都 是 从 外 在 特征 对 社交 
网 络 的 解读 , 是 微 博 传 播 模式 的 外 在 特征 四 不 具备 
明显 的 语义 内 涵 ， 因 此 直接 通过 数据 集 进 行 构建 , 不 
量化 。 

(2) 为 避免 人 工 判别 存在 主观 判断 的 影响 ,引入 
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研究 目标 是 识别 关键 节点 ， 即 该 节点 发 布 的 内 容 对 网 
络 中 其 他 节点 产生 巨大 的 影响 。 根 据 微 博 传播 特性 ， 
用 户 倾向 于 转发 与 自己 观点 一 致 的 感 兴趣 话题 的 微 
博 , 即 容易 受到 这 类 用 户 节 点 的 影响 。 因 此 本 文 认为 
某 超 边 包含 的 微 博 节 点 的 信息 传播 影响 度 越 高 ， 即 越 
多 的 用 户 可 以 接触 到 该 微 博信 息 , 那么 该 超 边 被 其 他 
超 边 链接 的 概率 越 大 ; 观点 子 网 中 某 超 边 所 含 的 观点 
类 别 与 其 他 超 边 所 含情 感 极 性 相同 且 情 感 强度 相近 ， 
话题 子 网 中 茶 超 边 的 话题 与 其 他 超 边 的 话题 分 布 相似 
性 越 大 , 该 超 边 和 其 他 超 边 链接 获得 的 分 值 越 大 。 因 
此 在 马 宁 等 中 研究 的 基础 上 ， 从 信息 传播 影响 度 、 话 


题 相似 度 和 观点 一 致 性 三 个 维度 对 超 边 排序 算法 迭代 

公式 进行 修改 , 得 到 |: 

HyperEdgeRank(HE;): ei * Simut 
L(HE;) 


1-I。 
HyperEdgeRank(HEi) = -+I。 > 
N HE 


(1) 

其 中 , N 表示 超 边 数 ，I。 表示 微 博 的 信息 传播 影 
响 度 ，ei 表示 观点 6; 和 ej 之 间 的 一 致 性 ， Simtt 表示 
话题 t 和 ti 之 间 的 相似 性 ; LOHEi) 表示 超 边 HEi 的 
超 边 连接 度 。 

根据 超 网 络 的 定义 , 本 文 引 入 两 个 超 网 络 的 属性 
指标 : 

(1) 节点 超度 (Node Hyperdegree)j: 表示 包含 该 节 
点 的 超 边 数量 1。 

(2) 超 边 连接 度 (HyperEdge Degree): 超 网 络 中 ， 
如 果 两 条 超 边 包含 相同 节点 , 说 明 两 条 超 边 通 过 该 相 
同 节点 连接 。 超 边 连 接 度 为 超 边 通过 所 含 节 点 与 其 他 
超 边 相连 的 超 边 数量 ?9。 

由 于 用 户 是 微 博 内 容 的 核心 生产 者 和 传播 者 ， 
此 本 文 认为 在 利用 超 边 排序 算法 对 包含 多 维 信息 的 超 
边 进行 排序 后 , 仍然 以 用 户 节 点 为 核心 , 累计 社交 子 
网 中 每 一 个 用 户 节点 参与 的 所 有 超 边 分 值 ， 通 过 与 该 
节点 的 超度 的 比值 获得 用 户 节 点 的 平均 分 值 ， 分 值 最 
高 的 为 关键 节点 , 公式 为 : 
> HyperEdge(HE, ) 

HD, 


Score(s; ) = 


2) 


3.2” 超 边 子 网 属性 计算 

(1) 内 容 子 网 的 微 博 信息 传播 影响 度 

内 容 子 网 中 所 有 用 户 发 布 的 一 条 微 博 代 表 一 个 微 
博信 息 节点 cid4 科 i 和 nn) 。 微 博 内 容 在 网 络 传播 中 影 
响 到 的 用 户 数量 越 多 , 传播 影响 度 则 越 高 ; 微 博 内 容 
被 越 多 的 人 转发 , 传播 影响 度 越 高 。 由 此 可 得 信息 传 
播 影响 度 主要 取决 于 传播 的 广度 和 深度 。 因 此 微 博 信 
息 内 容 的 传播 影响 度 I 主要 取决 于 传播 的 广度 和 深 
度 , 引用 马 宁 等 (5 对 信息 传播 影响 度 的 定义 ,在 微 博 
语义 社会 网 络 中 修正 定义 如 下 : 

信息 传播 广度 RR(c;) : 微 博信 息 节 点 的 传播 广度 按照 
包含 该 节点 的 超 边 数 P(ci) 与 总 超 边 数 N 的 比值 进行 衡量 

P(ci) 


即 R(ci) 过 


@) 信 息 传播 深度 D(ci) : 微 博 信息 传播 的 深度 可 理解 为 


其 经 过 转发 后 影响 的 用 户 数量 ， 本文 简 化 为 微 博信 息 节点 
ci 影响 的 社交 子 网 中 的 用 户 数 Alci) ， 因 此 D(ci)= 
了 (CD)/ 人 A(C) ， 其 中 N。 表示 社交 子 网 中 用 户 数 。 
N/N. 
由 此 得 到 信息 传播 影响 度 的 公式 为 : 


I。=R(ci).D(ci) = 
Ci (ci) (ci) N? .Alc;) 


G3) 


(2) 话题 子 网 的 话题 相似 度 
在 计算 话题 节点 之 间 相 似 度 时 引入 统计 自然 语言 
常用 的 Kullback-Leibler 距离 度量 *"1 由 于 KL 距离 越 
大 表示 话题 之 间 的 相似 度 越 低 ， 因 此 本 文 定 义 语义 相 
似 度 Sim,, 表示 话题 节点 t; 和 tj 的 相似 度 , 与 KL 距 
离 成 反比 , 公式 如 下 : 
1 1 
KL(P:.Q) ,PO) 
.POG 


Simtt = 


(4 


P 和 Q 分别 为 所 有 单词 以 t; 和 tj 话题 分 布 出 现 
的 事件 。PQ) 表示 第 i 个 单词 在 话题 ti 中 出 现 的 概率 ， 
QG) 表示 第 i 个 单词 在 话题 t 中 出 现 的 概率 。 由 于 
LDA 模型 中 每 个 话题 向 量 是 关于 微 博 数据 集 包含 的 
所 有 关键 字 的 多 项 式 分 布 , 因此 通过 建 模 结果 可 获得 
P() 和 Q(G) 。 

(3) 观点 子 网 的 观点 一 致 性 

对 于 同一 话题 不 同 的 用 户 持 有 不 同 的 情感 极 性 ， 
所 发 布 的 信息 也 具备 不 同 的 情感 强度 ， 因 此 观点 节点 
包含 不 同 的 倾向 和 强度 。 本 文 创 新 性 地 利用 情感 本 体 
获得 信息 节点 的 两 个 维度 的 情感 信息 : 情感 强度 EDi 
和 情感 极 性 EP; 。EP = 1 时 为 正面 观点 ，EP; = -1 时 为 
负面 观点 ，EP; = 0 为 中 立 观点 。 定 义 两 个 情感 属性 一 
致 时 ， 即 情感 极 性 一 致 且 情感 强度 相近 时 ， 观 点 节点 
一 致 性 更 加 明显 。 因 此 观点 一 致 性 si 由 情感 极 性 和 
情感 强度 共同 决定 且 与 情感 强度 的 差 值 成 反比 , 定 
义 如 下 : 


sign(EP; .EPi) 


EDi * ED; 
|ED; -EDjl| 
6ij = EP; # EP;, ED; = ED; (5) 
|ED; -EDjl 
1 EP = EP;, ED; = ED 


其 中 ，sign(EP .EPi) 为 符号 函数 ， 当 EP :EP; >0， 
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sign(EP; EP) =1 表示 情感 极 性 相同 ; 当 EP; :EP; 入 0， 
sign(EP . EP) = -1 表示 情感 极 性 相 异 。 


4 验证 与 分 析 


4.1 数据 处 理 

本 文 挖掘 的 节点 为 微 博 热门 话题 传播 中 对 与 论 导 
向 产生 重大 影响 的 关键 用 户 ， 因 此 在 数据 验证 环节 必 
须要 基于 热门 话题 数据 。 但 是 新 浪 微 博 自 带 的 热门 话 
题 榜 数据 不 开放 API 接口 , 因此 只 能 在 提取 新 浪 热门 
话题 榜 前 5 个 话题 关键 词 :“ 食 品 安全 ”“ 贪 腐 "、“ 公 
务 员 考试 "、“NBA”“ 房 价 ”的 基础 上 , 利用 自行 编写 
的 疏 虫 程序 通过 微 博 移动 客户 端的 搜索 框 抓 取 微 博 。 
在 去 除 停 用 词 后 , 由 于 过 短 的 文本 影响 话题 挖掘 效果 ， 
因此 筛 除 少 于 20 个 字 的 微 博文 本 ,总 计 获 得 2014 年 4 
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息 检 索 实验 室 的 中 文 情 感 词汇 本 体 库 握 ,借助 Javal.6 
和 Matlab 编程 工具 实现 超 网 络 节点 语义 信息 量化 、 各 
子 网 相似 度 计算 和 超 边 排序 算法 。 
4.2 超 网 络 模型 的 自动 构建 

(1) 话题 子 网 节点 量化 结 

LDA 建 模 实验 设置 参数 a=50/K，B =0.01, 吉 
斯 采样 的 迭代 次 数 为 1000 次 , 由 于 LDA 话 题 建 模 
果 受 到 数据 集 和 话题 数量 设置 的 影响 ,而 本 文 的 
据 集 较 小 , 与 数据 来 源 ( 微 博 话题 榜 的 前 5 个 话题 ) 
持 一 致 , 设置 话题 数量 为 5,。 图 2 展示 了 LDA 话题 
模 结果 , 由 于 LDA 话题 抽取 结果 是 话题 和 词汇 之 
的 联合 分 布 ， 只 能 通过 Topic; 进行 表达 。 可 以 从 话 
题 的 关键 词 集合 中 推断 Topicl 表征 公务 员 考 试 话题 ， 
Topic2 表征 NBA 体育 话题 ,Topic3 表征 房价 话题 ， 
Topic4 表征 食品 安全 话题 , Topic5 表征 贪 腐 话 题 。 由 
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CN 月 30 日 至 5 月 12 日 的 有 效 微 博 526 条 , 参与 用 户 共 ”于 疏 虫 程序 是 通过 微 博 搜索 框 抓 取 的 , LDA 模型 结 
CS 429 人 。 采 用 开源 的 NLPIR 分 词 和 新 词 识别 工具 包 ” 果 显 示 抓 取 关 键 词 与 获取 的 话题 信息 相近 ,可 见 采 
对 所 含 微 博文 本 在 新 词 发 现 的 基础 上 , 实现 分 词 , 去 用 LDA 模型 的 方式 能 够 减轻 人 工 判别 话题 信息 的 模 
= 除 无 语义 内 涵 的 高 频 词汇 。 同 时 利用 大 连理 工大 学 信  ” 糊 性 。 
~ 
Topicl | Topic2 Topic3 Topic4 oples 
公务 员 | | yy 箭 | | 房价 转基因 贫 官 
面 工 | | 开拓 者 | | 斥 | | 关 国 | | 到 十 
考 武 | | 赛 扬 | | 城市 | | 食品 | | 银行 
工作 | | 林 豪 : i 楼 市 i | 玉米 | i 官员 
2014 年 | | 塞 和 i | 价格 | | 大 | | 腐败 
成 绩 | | 防守 i i 降价 | | 农业 部 | : 国家 
单位 | | t 赛 | | 记 | | 起 术 | | 信息 
第 坛 | | 球 队 | | 成 | i 研究 | | 法律 
| 报 各 | | NBA | | JP | | 科学 | | 崔 / | 
A 


图 2 LDA 模型 对 话题 子 网 节点 量化 结 


(2) 观点 子 网 节点 自动 化 量化 结 准确 性 。 

将 内 容 子 网 中 的 信息 节点 ， 即 微 博 文本 ， 经 过 删 (3) 微 博 语义 社会 网 络 的 超 网 络 模型 结 
除 停 用 词 预 处 理 后 获得 候选 信息 文本 。 中 文 情感 词汇 在 自动 化 量化 观点 和 话题 子 网 节点 的 基础 上 , 构 
本 体 请 包 含情 感 极 性 及 情感 强度 , 将 情感 分 为 7 大 类 、 ” 建 超 网 络 模型 。 本 文 的 超 网 络 模 型 中 , 社交 子 网 中 包 
20 小 类 , 情感 强度 分 为 1, 3, 5, 7, 9 等 五 档 , 9 表示 强度 。 售 429 个 用 户 节点 ,内 容 子 网 中 包含 526 个 微 博 节点 ， 
最 大 。 表 1 列 出 了 内 容 子 网 微 博 节 点 与 其 抽取 的 观点 。 ”观点 子 网 中 包含 64 个 观点 属性 节点 , 话题 子 网 中 包含 
节点 的 对 应 信息 ， 本 文 的 自动 化 识别 方法 通过 情感 ”5 个 话题 节点 。 表 2 展示 了 4 层 子 网 中 各 层 节 点 的 对 
强度 和 极 性 两 个 维度 的 测量 保证 了 观点 自动 识别 的 ” 应 关系 ， 即 部 分 超 边 的 组 成 情况 。 


Dhttp: /ictclas.nlpir.org/docs. 
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表 1 内 容 子 网 节点 与 观点 子 网 节点 的 对 应 表 表 2 微 博 超 网 络 模型 部 分 超 边 组 成 
微 博 节点 观点 节点 情感 极 性 情感 强度 超 边 ”社交 子 网 ”内 容 子 网 ”话题 子 网 ”观点 子 网 
C1 e24 1 2 HE S365 Cl ts @24 
C2 6e23 一 | —19 HE> S407 C2 ti ©23 
C3 C24 1 2 HE; S48 C3 ts C24 
Ca @15 一 | 一 1$ HE4 S313 Ca ta ©15 
Cs el 0 0 HE; S73 Cs ta el 
HE6 S425 Ce ts e24 
C278 e57 1 6 HE7 S272 C7 t el 
C279 e42 一 1 一 3 HEs S310 Cg ta 6@23 
C280 ell 一 ] 一 13 HE。% S110 co t 6@58 
C281 6@55 1 5 HEio S96 C10 ts el 
C282 6e23 一 1 —19 
HEs17 S13 C517 t e25 
C522 e60 一 | = HEsig S102 Cs18 ta 6e6 
C523 e42 一 -3 HEs5l9 S68 Cs19 t e4 
C524 ©s9 1 7 HEs20 S69 Cs20 ti el 
C525 e42 一 | -3 HEs21 S73 Cs21 ta e60 
C526 el7 一 | —16 HEs>> S121 C522 t e42 
HEs523 S241 C523 ta ©s9 
4.3 超 边 排序 算法 结果 HEs S251 cs24 G e4 
(1) 内 容 子 网 属性 计算 HEss S287 Cs25 ts el7 
超 网 络 模型 的 内 容 子 网 共 包 含 526 个 微 博 节 点 ， HE ss cas ea 


安 照 公式 (3) 获 得 各 信息 节点 的 信息 传播 影响 度 ， 结 如 表 3 所 示 ( 截 取 15 个 微 博 节 点 ): 


表 3 信息 传播 影响 度 结果 

i P(ci) Alci) N R(ci) Ns D(ci) IL 

1 1 13 526 0.001898 429 0.062619 0.000118821 

之 2 11 526 0.003795 429 0.148008 0.000561699 

3 1 14 526 0.001898 429 0.058146 0.000110334 

4 1 5 526 0.001898 429 0.162808 0.000308934 

5 7 3 526 0.013283 429 1.899431 0.02522963 
225 1 11 526 0.001898 429 0.074004 0.000140425 
226 1 9 526 0.001898 429 0.090449 0.00017163 
227 5 13 526 0.009488 429 0.313093 0.002970522 
228 1 12 526 0.001898 429 0.067837 0.000128723 
229 1 4 526 0.001898 429 0.20351 0.000386168 
53 1 了 526 0.001898 429 0.116292 0.000220667 
256 1 10 526 0.001898 429 0.081404 0.000154467 
257 1 12 526 0.001898 429 0.067837 0.000128723 
258 1 14 526 0.001898 429 0.058146 0.000110334 
259 l 1 526 0.001898 429 0.814042 0.001544671 
(2) 观点 子 网 属性 计算 获得 64 个 观点 节点 之 间 的 相似 度 , 结果 如 图 3 所 示 ( 截 


超 网 络 模型 共 包含 64 个 观点 节点 , 根据 公式 (4) ” 取 前 10 个 观点 节点 )。 
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526x526 double 


1 1 0.0476 1 -0.0588 
2 -0.0476 1 -0.0476 0.2500 
3 1 0.0476 1 -0.0588 
4 -0.0588 0.2500| 0.0588| | 
5 0 0 0 0 
6 1 0.0476 1 -0.0588 
7 0 0 0 0 
8 -0.0476 到 -0.0476 0.2500| 
9 -0.1250| 0.0769 0.1250 0.1111 


日 
© 
© 
© 
© 


0 1 0 0.0476 0.1250 0 
0 -0.0476 0 1 0.0769 0 
0 1 0 0.0476 0.1250 0 
0 -0.0588 0 0.2500 0.1111 0 
1 0 1 0 0 1 
0 1 0 0.0476 -0.1250 0 
1 0 1 0 0 1 
0 -0.0476 0 1 0.0769 0| 
0 -0.1250 0 0.0769 1 0 
1 0 1| 0 0 1 


图 3 观点 一 致 性 计算 结果 截 选 


(3) 话题 子 网 属性 计算 
超 网 络 模型 共 包含 5 个 话题 节点 , 根据 公式 (4) 获 
得 5 个 话题 节点 之 间 的 相似 度 ,结果 如 表 4 所 示 : 
表 4 话题 相似 度 计算 结 


t1 t t ta ts 
ti 1 0.17242 0.18044 0.1865 0.16985 
ty 0.29845 1 0.26476 0.30823 0.29011 
ta 0.16008 0.14008 1 0.14578 0.13912 
ta 0.1686 0.15552 0.16177 1 0.15149 
ts 0.08366 0.10953 0.08451 0.08687 1 


4.4 关键 节点 识别 

借助 Matlab 实现 超 边 排序 算法 ， 从 而 对 所 有 超 边 
进行 计算 , 得 到 该 模型 526 条 超 边 的 分 值 , 截取 排名 
前 19 条 超 边 , 结果 如 表 5 所 示 。 

按照 公式 (2) 对 所 有 用 户 节 点 进行 计算 , 获得 10 
个 关键 用 户 节点 和 该 节点 超 边 平均 值 ,分别 为 
S150(0.19188)、si9s(0.19090) 、s33s(0.19090)、s132(0.19046)、 
si9(0.19042)、 siso(0.19033)、 se(0.19032)、 si6a(0.19027)、 
sg7(0.19026)、s173(0.19024)。 


5 ” 超 边 排序 部 分 结果 


超 边 HyperEdge- 超 边 ” 超 边 ”HyperEdge- 超 边 
排名 Rank 值 编号 ”排名 Rank 值 编号 


0.191884 HE4gs 11 0.190142 HEa7o 


— 


2 0.190901 HE;s 12 0.190111 HE433 
3 0.190901 HE4os 13 0.190096 HEiso 
4 0.190468 HEa3e6 14 0.190096 HE»s 
三 0.190429 HE7s 15 0.190096 HEs14 
6 0.190339 HE13s 16 0.190094 HE27 
7 0.190339 HE3n 17 0.190094 HEiss 
8 0.190311 HE473 18 0.190093 HE4so 
9 0.190275 HE24 19 0.190093 HE2> 
10 0.190226 HEsoo 


根据 表 6 截取 的 每 个 话题 下 分 值 较 高 的 超 边 信息 
可 以 看 出 用 户 对 于 不 同 话题 节点 包含 不 同 的 情感 倾 
癌 ， 对 于 公务 员 考 试 更 多 地 持 有 中 立 的 观点 ， 对 房价 、 
食品 安全 以 及 贪 腐 话题 相对 持 有 负面 观点 占 大 多 数 ， 
对 于 NBA 体育 话题 正面 观点 是 主流 。 实 验 结果 与 实 
际 情况 较为 相符 , 可 见 基 于 超 网 络 环境 下 的 网 络 建 模 
相 比 传统 模型 能 够 具备 显示 多 维度 、 多 层级 、 多 属性 
言 息 的 明显 优势 。 


表 6 话题 内 超 边 分 布 情况 (截取 ) 
话题 ”用 户 节点 微 博 内 容 EP ED; 
Topicl se ”公务 员 考 试 考 的 是 情商 啊 ,， 逻辑 思维 , 表达 能 力 ,应 变 能 力 ,发 散 性 性 思维 什么 都 考 了 。 0 0 
Topic2 sss ”不 是 每 个 人 都 能 成 为 詹 韦 杜 科 , 但 林 书 豪 贝 弗 利 这 样 的 故事 激励 人 们 去 努力 , 普通 人 的 精神 ! 1 3 
唉 ,那些 买 了 北京 房子 , 持 有 北京 房子 的 人 们 , 到 底 在 等 什么 呢 ? 继续 对 政府 抱 有 幻想 ” 钱 是 一 回 
、 事 ， 生活 品质 是 另 一 回 事 。 到 底 我 们 需要 的 是 钱 还 是 品质 ? [可 怜 ] 就 这 样 在 雾 竹 中 ,被 奴役 下 去 ， 
由 5 吗 ? 北京 到 底 是 谁 的 ? [ 泪 ]/@ 张 大 伟 113: 平均 跌 超过 5%//@ 古 保 剑 影 : 我 询问 了 我 家 门口 的 房屋 
中 介 , 二 手 房价 确实 略 有 下 降 
ee 此 贴 充 分 暴露 了 绅士 明显 在 误导 公众 与 论 , 混淆 相关 性 和 因果 性 的 区 别 /@ 崔 永 元 : 请 中 国 科学 家  ， ， 
上 ” 研究 。WG@annie 陈 蕉 西 : 请 相关 部 门 重 视 此 项 研究 成 果 并 启动 食品 安全 方面 的 调查 ! [围观 ] 
台湾 的 民主 纵 有 万 般 雇 误 ， 能 够 生存 至 今 已 经 打破 了 某 些 人 所 谓 “ 民 主 不 适合 中 国 * 的 牌 理 收 说 。 民 
ee 主 制度 下 ,有 几 个 人 胆敢 像 今日 中 国 的 贪官 污 更 那样 前 腐 后 继 ? 中 国 的 腐败 成 本 占 多 少 ? 三 峡 大 |，  ， 
bp ” 坝 士 方 工程 中 标价 60 元 一 方 , 最 后 一 包 6 元 , 不 出 20000 多 条 裂 锋 才 怪 呢 。 哪 天 三 峡 大 坝 震 了 , 五 


毛 们 就 不 喊 了 。 
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由 于 早期 的 网 络 科学 研究 关注 的 网 络 广 点 数目 较 
少 , 可 以 通过 问卷 调查 等 方式 以 实际 调查 结果 作为 标 
准 与 其 他 算法 结果 进行 比较 和 评价 。 但 是 大 数据 时 代 
的 来 临 ， 网络 规模 得 到 迅速 增长 ,因此 制定 较为 客观 
的 节点 重要 性 评价 标准 极为 困难 中。 目前 基于 超 网 络 
理论 的 关键 节点 识别 研究 和 ”评价 各 种 算法 优 劣 
的 主要 思路 是 : 以 算法 得 出 的 重要 节点 作为 研究 对 象 ， 
考察 这 些 节 点 对 整体 网 络 结构 和 功能 以 及 其 他 节点 状 
态 的 影响 程度 来 判断 优 劣 。 

表 7 中 展示 了 本 文 数据 集中 前 三 位 关键 用 户 节 点 
的 超 边 组 成 情况 , 包括 发 表 的 信息 内 容 、 观 点 倾向 以 
及 话题 内 容 。 可 见 微 博 数据 集中 用 户 讨论 的 核心 话题 
为 Topic4 食品 安全 问题 , 关键 用 户主 要 的 观点 倾向 为 
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负面 。 根据 图 2 可 知 , 话题 关键 词 “转基因 、 美 国 、 食 
品 、 中 国 ”等 都 在 表 7 中 频繁 出 现 。 从 前 三 位 关键 用 户 
微 博 内 容 中 也 可 以 看 出 公众 对 于 食品 安全 的 负面 情绪 
较 强 , 特别 是 关键 节点 siso 观 点 的 情感 强度 为 6, 根据 
结果 用 户 节 点 sis9 比 s13 在 微 博 话 题 的 传播 过 程 中 能 
够 影响 更 多 的 节点 , 更 为 关键 。 单 独 考 察 这 两 个 节点 
数据 发 现 ， 节点 sls 发 表 的 微 博 内 容 影 响 73 个 用 户 人 
次 对 于 食品 安全 话题 的 观点 ， 而 节点 sb2 发 表 的 微 博 
内 容 仅 影响 24 个 用 户 人 次 。 虽 然 两 者 同 为 负面 观点 ， 
但 是 前 考 具 有 更 高 的 情感 强度 ， 对 话题 的 引导 性 更 
强 ， 也 符合 实验 结果 。 可 见 本 文 的 识别 方法 在 实际 
应 用 中 能 够 有 效 识别 对 与 论 观 点 导向 具有 领导 作用 
的 关键 节点 。 


表 7 关键 节点 用 户 超 边 组 成 情况 
用 户 节 点 微 博 内 容 EP, EDi 话题 

中 国 大 量 进 口 转基因 大 豆 就 是 从 加 入 世贸 后 不 久 开始 的 ,一 直 怀 疑 进口 转基因 与 加 入 世贸 有 

关 。 为 加 入 世贸 , 中 国 接受 了 很 多 不 公平 的 条 件 ， 比 如 在 金融 、 贸 易 、 投 资方 面 的 不 对 等 开 1 必 

2 放 。 是 谁 把 加 入 世贸 的 协定 搞 成 了 不 平等 条 约 ， 应 该 追究 其 责任 。 买 办 是 逃脱 不 了 历史 的 惩 
罚 的 , 无 论 他 多 么 会 大 义 凉 然 的 表演 。 

我 对 转基因 食品 最 大 的 担忧 就 是 不 知道 有 什么 样 的 潜在 危险 。 做 一 件 事情 , 不 知道 后 果 是 什 1 

”和 么 , 这 是 很 可 怕 的 。 因 为 无 法 预知 。 

ss38 ”现在 已 经 没有 安全 食品 可 食用 了 ,地沟 油 , 转基因 ， 三聚氰胺 , 这 让 百姓 还 怎么 活 ? -1 -4 ta 

5 结语 2 


本 文 结合 网 络 属性 和 微 博 传 播 机 制 , 创新 性 地 构 
建 微 博 应 用 场景 下 的 语义 社会 网 络 超 网 络 模型 ， 利 用 
情感 本 体 和 LDA 模型 自动 化 构建 观点 和 话题 子 网 的 
语义 节点 ， 提 出 基于 信息 传播 影响 度 、 观 点 一 致 性 和 
话题 相似 度 计算 方法 , 构建 超 边 排序 算法 对 超 边 进行 
计算 和 排序 , 计算 社交 子 网 中 用 户 节 点 参与 超 边 的 平 
均 累 计 分 值 实现 关键 节点 的 识别 。 使 用 了 能 够 表征 用 
户 、 内 容 、 话 题 和 情感 属性 的 超 边 对 节点 重要 性 进行 
衡量 , 转变 传统 使 用 单一 用 户 节 点 计算 的 局 限 性 。 最 
后 通过 实际 数据 验证 了 在 语义 社会 网 络 关键 节点 识别 
中 超 网 络 理论 的 实用 性 以 及 超 边 排序 算法 的 有 效 性 ， 
为 舆情 的 监管 和 引导 提供 了 一 定 的 理论 指导 和 解决 方 
法 。 下 一 步 工作 是 提高 超 网 络 节 点 自动 化 量化 方法 在 
大 数据 环境 下 的 效率 问题 , 增强 对 语义 社会 网 络 的 实 
时 监测 效果 ; 抛弃 传统 的 删 帖 禁 言 策略 , 研究 在 识别 
关键 节点 后 如 何 进行 有 效 的 引导 和 干预 。 
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Hypernetwork Model for Semantic Social Network and Automatic 
Identification of Key Nodes 


Zhang Lei Ma Jing LiDandan Shen Yang 
(College of Economic and Management, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China) 


Abstract: [Objective] This study aims to identify the key nodes of public opinion Spread and evolution based on the 
semantic social network model. [Methods] We first built model for Weibo semantic social network with the help of 
hypernetwork theory, and then used emotion Ontology and LDA model to quantify nodes. Finally, we established the 
hyper edge sorting algorithm to identify the key nodes. [Results] The proposed model could effectively and acturately 
quantify those nodes from real Weibo data. [Limitations] We did not explore the results of the proposed method’s 
real-time performance, and new ways of leading the public opinion after identifying those key nodes. [Conclusions] 
This study provides a solution for the government to identify the key nodes in the social network systems, and then 
reduce the impacts of negative contents to the healthy development of the Internet. 


Keywords: Hypernetwork Semantic social network Key node identification LDA model Emotion Ontology 
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